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摘要 : 害 忠 发 生 是 一 种 复杂 、 动态 时 间 序 列 数据 , 单一 预测 模型 都 是 基于 线性 或 非 线性 数据 , 不 能 同时 捕捉 害虫 发 
生 的 线性 和 非 线 性 规律 , 很 难 达到 理想 的 预测 精度 。 本 研究 首 匈 采用 差分 目 回 归 移 动 平均 模型 对 昆虫 发 生 时 间 序 列 
进行 线性 建 模 ,然后 采用 文 持 向 量 机 对 非 线性 部 分 进行 建 模 ,， 最 后 得 到 两 种 模型 的 组 合 预测 结果 。 将 组 合 模型 应 用 
到 松 毛虫 Dendrolimus punctatus 发 生 面积 的 预测 ,实验 结果 表明 组 合 模型 的 预测 精度 明显 优 于 单一 模型 ， 发挥 了 两 种 
模型 各 目的 优势 。 组 合 模型 是 一 种 切实 可 行 的 害虫 预测 预报 方法 。 
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Abstract: The data of pest occurrence are complicated and unpredictable time series. The linear or nonlinear 
features of pest time series can not be captured based on single prediction model. A new hybrid forecasting 
model based on autoregressive integrating moving average (ARIMA ) and support vector machine (SVM) is 
proposed in this paper. ARIMA model was used to predict the linear component while SVM model was used for 
the nonlinear residual component of pest time series, and then the hybnrid forecasting results were obtained. The 
prediction performances of the method were tested on Dendrolimus punctatus occurrence area. The results show 
that the hybrid model, which combines the respective advantages of both linear and nonlinear models, has better 
accuracy than any single model. Hybnrid model is a good and effective method for pest forecasting. 
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1 引言 


预测 预报 是 害虫 综合 防治 的 重要 组 成 部 分 , 是 
一 项 监测 害虫 未 来 种 群 变动 趋势 的 重要 工作 , 也 是 
有 效 地 控制 害虫 发 生发 展 的 依据 , 它 根据 害虫 种 群 
过 去 和 现在 的 变化 规律 、 调 查 取样 和 气象 预报 等 资 
料 , 借助 统计 学 原理 和 方法 , 建立 数学 模型 , 分 析 害 
虫 发 生 资 料 , 研究 其 变化 规律 以 及 预报 因子 与 预报 对 
象 之 间 关 系 ， 为 综合 控制 害虫 危害 提供 科学 的 依据 。 

近年 来 , 许多 学 者 应 用 时 间 序 列 方法 对 害虫 发 
生 系统 进行 了 研究 和 分 析 , 最 重要 的 时 间 序 列 模型 
为 差分 和 目 回归 移动 平均 (autoregressive integrating 
moving average，ARIMA ) ，ARIMA 模型 极 具 弹性 ， 
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它 可 表示 各 种 不 同 种 类 的 时 间 序 列 模 型 , 融合 了 时 
间 序 列 分 析 和 回归 分 析 的 优点 , 在 害虫 种 群 动态 变 
化 中 得 到 了 广泛 应 用 (机 春生 ，2007; 耸 冠 军 ， 
2008 ) 。 但 由 于 害虫 的 发 生 受到 多 种 因素 的 影 啊 ， 
是 一 种 非常 复杂 的 自然 现象 , 这 样 基于 线性 数据 的 
ARIMA 模型 无 法 捕 提 害虫 发 生 过 程 中 的 非 线 性 信 
息 , 从 而 导致 预测 精度 不 理想 ( Ma et al.，2000 ) 。 
20 世纪 80 年 代 以 来 , 非 线性 的 神经 网 络 算法 产生 ， 
为 害虫 发 生 预 测 预报 的 深入 研究 开拓 了 新 的 空间 
( 陈 绘画 等 ,2003; 罗 盛 健 2006; 陈 顺 立 等 ， 
2006 ) 。 然 而 神经 网 络 是 基于 经 验 风险 最 小 化 原 
则 , 要 求 数 据 样本 大 , 实际 得 到 的 昆虫 历史 数据 
属于 小 样本 数据 , 往往 不 能 满足 大 样本 这 一 要 求 ， 
所 以 神经 网 络 在 其 预测 过 程 中 容易 出 现 过 拟 合 、 
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沁 化 能 力 不 强 等 现象 。 基 于 结构 风险 最 小 化 的 文 
持 疝 量 机 (support vector machines, SVM ) 是 机 器 学 
习 的 集大成 者 , 较 好 地 解决 了 小 样本 、 非 线性 、 过 
拟 合 、 维 数 灾 和 局 部 最 优等 问题 , 且 泛 化 能 力 优 
寞 , 在 害虫 预测 领域 取得 了 较 好 的 预测 结果 ( 石 铝 
唱 等 , 2009; 谭 泗 桥 等 ,2009 ) 。 

为 了 有 效 利 用 各 种 模型 的 优点 ,克服 单一 模型 
的 缺陷 ,基于 著名 的 M- 苋 争 理论 , 近年 来 一 些 学 者 
提出 了 组 合 预测 的 方法 (Vila et al., 2000; Salgado et 
al., 2006) 。 实 证 结果 显示 ,相对 于 单个 的 模型 , 组 
合 模型 能 大 幅度 地 提高 预测 精度 , 表明 组 合 模 型 能 
够 较 大 限度 地 利用 预测 样本 的 各 种 信息 ， 比 单个 的 
模型 考虑 问题 更 系统 、 更 全 面 。 

目前 , 基于 ARIMA 和 SVM 组 合 的 害虫 发 生 预 
测 方法 还 鲜 有 报道 ,本 研究 提出 了 一 种 基于 
ARIMA 和 SVM 组 合 的 害虫 发 生 预 测 方法 一 一 
ARIMA-SVM。ARIMA 模型 描述 历史 数据 的 线性 关 
系 , SVM 捕捉 数据 的 非 线 性 规律 ， 并 台 了 这 宁 和 省 对 阳 
市 松 毛虫 发 生 面积 进行 仿真 实验 ,实验 结果 验证 了 
ARIMA-SVM 模型 的 有 效 性 和 可 行 性 。 


2 ARIMA 和 SVM 的 概述 


2.1 ARIMA 模型 

ARIMA 模型 是 由 Box 和 Jenkins (1976 ) 提出 的 
一 种 时 间 序 列 建 模 方 法 ,其 建 模 的 基本 思想 是 首先 
对 非 平稳 的 时 间 序 列 通过 寿 干 次 差分 后 使 其 成 为 平 
稳 序 列 , 作 差分 的 次 数 用 参数 d 表示 , 然后 用 以 p 
和 9 为 参数 的 ARIMA 模型 对 该 平稳 序列 建 模 ， 最 
后 经 反 变换 得 到 原 时 间 序 列 。 以 p, d, 4 为 参数 的 
ARIMA 模型 预测 方程 可 以 表示 为 : 

Ys = O00 + pi +t Oy 2 t+ +Oop + Er — Oe 
— 01 一 一 0 er (1) 

式 中 , yi 为 样本 值 ; yg;(i = 1,2,…,p) 和 90， 
(j =1, 2,…, 9) 为 模型 参数 ; sx 为 随机 误差 ,其 
均值 为 0。 

ARIMA 时 间 序 列 预测 的 建 模 过 程 如 下 : 

(1 ) 样 本 平稳 化 处 理 : 建立 ARIMA 模型 要 求 时 间 
序列 是 平稳 随机 过 程 , 因此 在 建 模 之 前 必须 检验 时 间 
序列 数据 的 平稳 性 ,如 果 数 据 序列 具有 非 平 稳 性 特点 ， 
则 需 对 其 进行 差分 处 理 , 使 之 成 为 平稳 时 间 序 列 ; 

(2) 模 型 定 阶 : 要 通过 分 析 目 回归 系数 、 偶 回归 
系数 和 互相 关系 数 , 确定 目标 序列 的 最 适合 阶 数 ; 

(3 ) 模型 检验 : 在 进行 定 阶 和 参数 估计 后 , 对 所 
建立 的 模型 适用 性 进行 检验 , 奉 模 型 误差 是 日 曝 声 ， 


则 建 模 获得 通过 , 否则 需要 重新 进行 定 阶 和 参数 估计 ; 

(4) 预测 : 对 平稳 化 的 时 间 序 列 进行 预测 。 
2.2 SVM 回归 原理 

对 于 一 个 给 定 的 样本 数据 集 { (%;, y;),i=1， 
2,…, kl ,为 样本 个 数 ， 文 持 问 量 机 回归 
(Vapn 让 ,2001 ) 的 基本 思想 是 通过 一 个 非 线性 映射 
函数 ,将 数据 ;映射 到 高 维特 征 空 间 , 并 在 这 
个 空间 进行 线性 回归 , 具体 表现 形式 如 下 : 

f(x) =w D(x) +b (2) 
式 中 , w 为 超 平面 的 权 值 问 量 , 2 为 偏 置 量 。 

支持 同 量 机 回归 估计 通常 采用 在 训练 集 最 小 化 
经 验 风 险 得 到 ,所 使 用 的 损失 函数 有 平方 误差 和 绝 
对 值 误差 等 形式 , 文 持 癌 量 机 使 用 一 种 新 的 损失 函 
数 形式 ， 称 之 为 = 不 敏感 损失 函数 ( e -insensitive 
cost function ) , s 可 用 下 式 描 述 : 

LA(f(%i), Yi) = 
人 | f(%i) -Yil=e (3) 

0 | f(x%i) -yl<e 

为 了 使 训练 集 上 获得 的 回归 模型 具有 更 好 的 推 
广 能 力 , 不 但 要 考虑 经 验 风 险 的 最 小 化 ,同时 还 要 
设法 降低 模型 的 复杂 度 。 在 这 种 理念 指导 下 ，SVM 
回归 实际 上 是 一 个 优化 问题 的 求解 : 
min = Fo"w + + &, ) (4) 


w,b ,Ei, 六 

约束 条 件 如 下 : 

y, 一 OO MX -0 过 ES+C 

ww :MXi+D- 和 信和 2E+E 1=1,L,k (5) 

é; 宇 0,€; 三 0 
式 中 ,上 和 二 为 松弛 变量 , 分 别 表示 在 误差 s 约束 
下 (f(x;) -wo B(x;) +5) 的 训练 误差 的 上 限 和 下 
限 ; s 为 回归 允许 的 最 大 误差 ,控制 支持 问 量 的 个 
数 和 泛 化 能 力 , 其 值 越 大 , 文 持 问 量 数量 就 越 少 ; c 
为 一 正常 数 , 是 回归 模型 的 复杂 度 和 样本 拟 合 精度 
之 间 的 折衷 , 其 值 越 大 , 拟 合 程度 越 高 。 这 样 相应 
文 持 回 量 机 回归 佑 计 函 数 为 : 


f(x) = 之 (0 -ai )hk(x—x) +b (6) 


由 于 任意 满足 泛 函 Mercer 条 件 的 对 称 函 数 均 
可 作为 支持 癌 量 机 的 核 函 数 , 但 是 对 于 特定 的 问 
题 , 如何 选择 最 合适 的 核 函 数 , 一 二 是 困扰 研究 者 
的 一 个 难点 ,针对 此 问题 , 很 多 人 研究 和 实验 表明 ， 
当 缺 少 过 程 的 先 验 知 识 情况 下 , 选择 高 斯 核 郴 数 比 
其 他 核 郴 数 效 果 更 好 (Ito and Nakano，2003; 卢 宇 
等 , 2007), 因此 本 研究 文 持 回 量 机 核 函数 采用 高 
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斯 核 函 数 ,高 斯 核 函 数 定义 如 下 : 
1 

一 7 
Fem (7) 
式 中 , 6 为 核 参数 的 宽度 。 

这 样 支持 向 量 机 回归 函数 变 为 : 

Ha) = Pl -a ep(F i +5 (8) 
式 中 , 1 为 支持 向 量 数 , x; 为 作为 支持 向 量 的 样本 子 
向 量 ,x 为 待 预 测 因 子 向 量 , o ,ar 为 拉 格 朗 日 乘 子 。 


3 ARIMA-SVM 模型 


3.1 ARIMA-SVM 原理 

大 量 研 究 表 明 , 害虫 发 生 是 一 个 动态 复杂 系 
统 , 具有 不 均匀 性 、 差 异性 、 多 样 性 、 突 发 性 、 随 机 
性 、 可 预测 性 和 规律 性 等 复杂 性 的 特点 ( 马 飞 等 ， 
2001; 许 晓 风 等 , 2002 ) 。 正 是 由 于 害虫 发 生 的 复 
杂 性 , 使 得 经 典 的 理论 和 方法 已 不 适用 于 日 趋 复杂 
化 的 害虫 发 生 系统 研究 , 单纯 使 用 SVM 或 ARIMA 
模型 进行 预测 都 有 可 能 导致 误差 过 大 。 因 此 , 本 研 
究 首先 采用 ARIMA 模型 预测 害虫 发 生 的 历史 数据 ， 
使 其 线性 规律 信息 包含 在 ARIMA 模型 的 预测 结 
中 , 这 时 非 线 性 规律 包含 在 ARIMA 模型 的 预测 残 
差 序列 中 , 然后 用 SVM 对 ARIMA 模型 的 残 差 进行 
预测 , 使 非 线性 规律 包含 在 SVM 的 预测 结果 中 , 最 
后 将 两 者 的 预测 结果 相 加 得 到 组 合 预测 模型 的 预测 
值 , 其 原理 如 图 1 所 示 。 


k(x, x%,) = exp( 
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图 1 ARIMA 和 SVM 的 组 合 预测 模型 流程 图 
Fig. 1 The flow chart of ARIMA and SVM hybrid 


forecasting model 
3.2” ”ARIMA-SVM 算法 步骤 
把 一 组 时 间 序 列 的 数据 y, 看 成 是 由 线性 目 相 


关 结 构 L, 和 非 线 性 结构 N, 两 部 分 ， 即 : 
y, =L,+WN, (9) 


步骤 1, 用 ARIMA 模型 对 y, 进行 预测 。 设 预 
测 结果 为 L,, 原 序 列 与 ARIMA 模型 预测 结果 的 残 
差 为 e ， 即 


C; 一 一 (10) 
序列 | e, 上 隐 含 了 原 序 列 中 的 非 线 性 关系 
Ci; = f(e,1, Cr-2，“” en) +t+e (11) 


式 中 , es 为 随机 误差 。 

步骤 2, 根据 步 又 1 得 到 的 残 差 序列 ， 对 残 差 
序列 进行 样本 重 构 得 到 SVM 样本 集 , 利用 SVM 对 
残 差 进行 预测 ,并 设 预 测 结果 为 e, 。 

步骤 3, 把 两 种 模型 的 预测 结果 相 加 得 到 最 终 
的 预测 结果 y,, 结果 为 

y, =L,+e, (12) 
3.3” 参 比 模型 及 评价 指标 

为 了 考察 ARIMA-SVM 模型 的 有 效 性 ， 选择 
SVM、ARIMA 为 参 比 模型 ， 所 有 模型 均 采 用 一 步 预 
测 法 。ARIMA 由 DPS6. 55 得 到 ，SVM 由 目 编 
MATLAB 7.0 通过 调用 SVM 工具 箱 实 现 , 所 有 模型 
的 数据 处 理 技 术 均 相同 。 为 了 评价 模型 预测 性 能 的 
优 劣 , 使 用 均 方 误差 (mean square error，MSE ) 和 平 
均 绝 对 误差 百分比 (mean absolute percentage error， 
MAPE ) 作为 模型 的 评价 指标 。MSE 和 MAPE 分 别 
定义 如 下 : 


1 ~ 
MSE = 二 之 (yi 一 力 ) (13) 
i=1 
] i 
MAPE = (— >, 


i=1 





|) (14) 
Y; 
式 中 , y 为 实际 值 , y; 为 预测 值 , n 为 预测 样本 数 。 


4 ARIMA-SVM 模型 在 害虫 预测 中 
的 应 用 


4.1 数据 来 源 

数据 来 源 于 辽宁 朝阳 市 1986 - 2006 年 的 松 毛 
虫 发 生 面 积 ( 刘 青松 ，2008 ), 将 数据 分 为 2 部 分 ， 
1986 -2001 年 的 实际 发 生 面积 作为 训练 样本 来 拟 
合 和 建 模 ; 为 避免 单个 样本 预测 结果 的 偶然 性 ， 以 
2002 - 2006 年 数据 作为 测试 样本 来 检验 模型 的 泛 
化 能 力 。 采 用 一 步 预测 法 , 在 预测 第 i 年 时 , 前 i- 
1 年 数据 作为 学 习 样 本 参与 建 模 训练 , 其 后 续 年 份 
数据 不 得 参与 建 模 训 练 ; 在 预测 第 i+1 个 样本 时 ， 
将 第 i 个 样本 加 入 到 训练 样本 中 。 
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表 1 辽宁 朝阳 市 历年 松 毛虫 发 生 面积 统计 4.2 模型 的 实现 
Table 1 Records of Dendrolimus punctatus Occurrence area 4.2.1 辽宁 朝阳 市 松 毛虫 发 生 面积 线性 部 分 的 
in Chaoyang, Liaoning ARIMA 预测 : 

年 份 ”发 生 面积 [104 hw?) | 年 份 ”发 生 面积 (104 hm?) (1) 松 毛虫 历史 数据 的 平稳 化 : 
Year Occurrence area Year Occurrence area 从 表 1 可 以 看 出 松 所 上 所 发 咎 面积 时 现 明 显 的 了 E 
1986 ?0 1997 14 线性 特征 , 需要 对 其 进行 平稳 化 处 理 。 对 数据 序列 
1 和 和 进行 1, 2, 3 阶 差分 , 发 现 3 阶 差分 后 数据 已 经 基 
ow | 本 平稳 化 ， 所 以 设 定 ARIMA 模型 参数 d=3。 
1990 10.8 2001 29.4 (2) ARIMA 模型 ? 和 4 的 确定 及 预测 
1991 9.6 2002 18.0 信 助 DPS 0.55 构建 ARIMA 模型 7 采用 从 低 阶 
1992 16.2 2003 26.4 到 高 阶 逐 步 试 探 法 来 识别 模型 的 参数 , 经 过 比较 分 
1993 20.4 2004 19.2 析 , 发 现 选择 ARIMA(5, 4, 3) 模 型 的 拟 合 效果 较 
1994 21.0 2005 22.8 好 , 拟 合 结果 见 表 2, 然后 对 测试 样本 进行 预测 ， 
1995 15.0 2006 25.9 检测 样本 的 平均 MSE 为 5.33, 可 见 ARIMA 模型 得 
1990 21.0 





到 了 较 好 的 预测 效果 。 


表 2 各 种 模型 对 1986 -2001 年 辽宁 朝阳 市 松 毛 虫 发 生 面积 的 拟 合 值 
Table 2 Fitted values of models for Dendrolimus punctatus Occurrence area in Chaoyang ， 
Liaoning between 1986 and 2001 


年 份 实际 发 生 面积 ARIMA 拟 合 SVM 拟 合 ARIMA-SVM 拟 合 值 
Year Actual area (104 hm’) ARIMA fitted (104 hm”) SVM fitted (104 hm” ) ARIMA-SVM fitted (104 hm”) 
1986 9.0 9.7 10.1 9.3 

1987 13.8 11.9 12.8 13.0 

1988 17.4 14.9 17.4 17.6 

1989 16.2 16.7 17.3 16.5 

1990 10.8 10.4 12.1 11.7 

1991 9.6 12.6 11.9 10.6 

1992 16.2 16.8 16.2 16.5 

1993 20.4 20.3 19.4 20.4 

1994 21.0 19.0 19.9 20.7 

1995 15.0 14.9 16.5 15.3 

1996 21.6 23.8 22.6 21.9 

1997 11.4 12.8 13.8 12.1 

1998 27.0 28.6 25.1 28.1 

1999 20.4 20.8 20.7 20.6 

2000 20.4 22.6 22.5 22.7 

2001 29.4 25.9 27.6 28.1 


4.2.2 辽宁 萌 阳 市 松 毛虫 发 生 面积 的 非 线性 部 分 ，” 生 量 有 关 , 到 底 前 多 少年 害虫 发 生 量 有 关 ， 需要 通 


SVM 建 模 过 程 : 过 确定 最 佳 时 淖 阶 数 来 解决 ， 即 模型 定 阶 。 传 统 模 
(1) 模 型 的 定 阶 : 型 阶 数 的 确定 方法 在 实践 中 有 2 种 , 一 是 徘 经 验 选 


害虫 发 生 量具 有 时 滞 和 后 效 性 ,当年 的 害虫 发 。” 择 , 二 是 先 设 定 模 型 其 他 参数 ,然后 对 时 灌 阶 数 按 
生 量 不 仅 与 当前 影响 因子 有 关 , 且 与 历史 的 害虫 发 。 ” 照 一 定 的 标准 进行 优化 。 第 一 种 方法 过 分 依赖 研究 
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者 的 知识 和 经 验 , 不 能 客观 选择 最 佳 时 浪 阶 数 ， 而 
第 二 种 方法 则 忽略 了 一 个 重要 问题 : 时 涉 阶 数 与 其 
他 参数 对 模型 好 坏 的 影响 是 相互 的 , 如 果 人 为 设 定 
其 他 参数 选择 澡 后 阶 数 , 然后 使 用 该 时 涉 阶 数值 优 
化 参数 , 很 有 可 能 只 是 在 该 浪 后 阶 数 下 的 参数 最 
优 , 而 不 是 全 局 最 优 , 即 存在 局 部 最 优 缺 聊 。 本 研 
究 采 用 模型 阶 数 与 SVM 模型 参数 一 起 寻 优 方法 ( 喜 
哲 明 等 , 2008 ) , 具体 描述 如 下 : 

假定 一 多 输入 单 输出 回归 模型 用 个 样本 、1 
个 因 变 量 、m -1 个 自 变 量 , 由 低 阶 到 高 阶 递增 地 
以 SVM 进行 留 一 法 测试 , 并 根据 MSE 最 小 标准 来 
决定 是 否 继续 扩展 阶 数 。 对 竺 比较 的 相 邻 两 模型 
SVM (n) 和 SVM (n+1l) ， 记 MSE syycn) 为 SVM (n) 
的 均 方 误差 ，MSEswon 为 SVM (n+l) 的 均 方 误 
差 。 各 ME oyy, > MSE syyen, 11) 》 继 线 拓 阶 ; 各 
MSEsyye) 三 MSEsyyor1)， 阶 数 拓展 终止 取 SVM 
(n) 为 定 阶 后 模型 。 经 过 多 次 试验 比较 , 最 后 选 定 
模型 的 阶 数 为 3。 

(2) 模 型 数据 的 重 构 及 预测 : 

从 模型 的 时 浪 阶 数 可 知 当 年 松 毛 忠 发 生 面积 芯 

残 差 受到 前 2 年 的 发 生 面积 残 差 的 影响 , 这 就 意味 
着 将 前 2 年 的 松 毛虫 发 生 面 积 的 残 差 作 为 SVM 的 
输入 来 预测 当年 松 毛 虫 发 生 面积 的 残 差 。 在 
MATLIB7.0 平台 下 自 编 程 调用 SVM 工具 箱 来 实现 
SVM 建 模 , 核 也 数 为 高 斯 核 泡 数 , 采用 10 折 交 叉 
验证 , 支持 向 量 机 参数 经 遗传 算法 寻 优 得 到 , 用 最 
优 参 数 对 2002 - 2006 年 松 毛虫 发 生 面 积 残 差 进行 
预测 。 
4.2.3 ”结果 与 分 析 : 最 后 , 根据 ARIMA 模型 得 到 
的 线性 预测 结果 和 SVM 模型 的 非 线 性 预测 结果 ， 
进行 简单 的 相 加 得 到 ARIMA-SVM 模型 的 预测 结 
果 , 各 模型 的 预测 结果 如 图 2 所 示 ，MSE 和 MAPE 
见 表 3。 

从 图 2 和 表 3 可 知 , 非 线 性 的 SVM 模型 和 线 
性 的 ARIMA 模型 的 预测 效果 都 不 够 好 ， 主 要 是 因 
为 它们 都 不 能 同时 捕捉 到 松 毛 虫 发 生 面积 的 线性 和 
非 线性 特征 ; 而 ARIMA-SVM 模型 与 ARIMA 和 
SVM 相 比 ， 预 测 精 度 有 了 较 大 的 提高 ， 说 明 
ARIMA-SVM 预测 模型 能 够 充分 利用 原始 数据 中 的 
诗 县 ， 避 免 了 单一 模型 的 局 限 性 ,其 对 松 毛 虫 发 生 
面积 的 预测 结果 是 可 靠 、 有 效 的 。 

用 ARIMA-SVM 模型 进行 松 毛虫 发 生 面 积 预 
测 ， 只 需 利 用 松 毛虫 发 生 本 喘 的 历史 状态 的 演变 特 
点 ， 就 能 预报 出 它 未 来 的 发 展 趋势 , 与 传统 数理 统计 
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图 2 各 种 模型 的 预测 结果 与 实际 辽宁 朝阳 市 松 毛 忠 
(2002 -2006 年 ) 结 果 对 比 
Fig. 2 The results of predicting models and actual values for 
Dendrolimus punctatius in Chaoyang, 


Liaoning between 2002 and 2006 


表 3 各 种 模型 的 预测 误差 比较 


Table 3 The forecasting errors of various models 


模型 


Model MSE MAPE 
ARIMA 3.33 10.5 
SVM 5.45 8.8 
ARIMA-SVM 1.37 5.5 


方法 相 比 , 具有 简便 、 可 徘 等 特点 。 主 要 原因 是 ， 
松 毛虫 的 历史 发 生 状 态 是 它 本 身 遗 传 特 性 及 自然 环 
境 因 子 综合 作用 的 结果 , 松 毛虫 每 代 种 群 数量 都 处 
于 一 定 变化 状态 之 中 , 并 隐 含 于 整个 历史 过 程 的 时 
间 序 列 之 中 , 前 代 种 群 数量 是 下 代 种 群 消长 的 基 
础 ,下 代 种 群 变化 则 是 上 代 种 群 变 化 的 延续 ,两 者 
保持 着 密切 的 关系 ,维持 着 整 个 种 群 演变 的 连续 
性 。ARIMA-SVM 正 是 揭示 了 松 毛 虫 种 群 数量 变动 
的 这 种 内 在 规律 。 因 此 , 利用 ARIMA-SVM 预测 松 
毛虫 种 群 变动 是 切实 可 行 的 。 

松 毛虫 的 发 生 面积 与 林 分 结构 、 防 治 方法 、 天 
敌 、 气候 变 化 以 及 不 同 种 类 发 生 世 代数 源 等 因子 密 
切 相 关 , 尤其 是 特异 气候 的 影响 极 显 车 , 造成 各 年 
之 间 发 生 情况 的 差异 具有 较 大 的 随机 性 和 偶然 性 ， 
有 时 甚至 是 无 规律 可 循 的 , 给 松 毛 虫 的 发 生 面积 预 
测 带 来 很 大 的 困难 , 但 ARIMA-SVM 模型 能 给 出 的 
松 毛虫 灾变 趋势 , 尤其 是 1 ~2 年 的 预测 值 , 具有 一 
定 的 参考 意义 , 为 及 早 、 准 确 地 制定 防治 计划 ，, 控 
制 松 毛虫 危害 提供 依据 。 


5 结论 


害虫 的 预测 预报 是 一 个 非常 活 牙 的 研究 领域 ， 
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传统 预测 方法 没有 考虑 到 害虫 数据 的 非 线 性 特征 ， 
从 而 导致 预测 准确 度 不 高 ; 而 神经 网 络 是 基于 经 验 
风险 的 原则 的 方法 , 要 求 数据 样本 大 ,对 于 小 样本 
的 害虫 数据 ,容易 出 现 过 拟 合 现象 。 本 人 研究 利用 
ARIMA 模型 捕捉 害虫 发 生 过 程 中 的 线性 趋势 ,用 
SVM 预测 害虫 发 生 过 程 的 非 线 性 规律 。 基 于 辽宁 
阴阳 市 松 毛虫 发 生 面积 的 实证 研究 表明 了 该 模型 在 
长 期 预测 上 的 有 效 性 , 并 在 总 体 上 把 握 松 毛虫 的 发 
生 趋 势 , 达到 更 准确 地 对 松 毛虫 发 生 面积 进行 预报 
的 目的 。 同 时 , 实例 验证 了 组 合 模型 比 单一 模型 的 
预测 结果 更 合理 、 更 可 徘 , 表明 该 预测 模型 是 农业 
病虫害 预测 预报 工作 中 的 一 个 新 的 、 强 有 力 的 工 
具 。 由 于 害虫 发 生 是 受气 象 、 天 敌 、 耕 作 制 度 等 多 
种 因 于 的 影响 , 本 研究 只 考虑 害虫 发 生 历 史 时 间 序 
列 数据 , 没有 考虑 到 这 些 因 素 的 影响 ,综合 考虑 多 
种 因子 对 病虫害 的 影响 , 这 些 有 行进 一 步 深 入 
研究 。 
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